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大 数据 下 的 分 布 式 精确 模糊 KNN 分 类 算法 
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摘 要 : 针对 开 - 近 邻 KNN) 方 法 处 理 大 数据 集 的 效率 问题 进行 了 研究 ， 提 出 了 一 种 基于 Spark 框架 的 分 布 式 精确 模糊 
KNN 分 类 算法 。 该 方法 创新 性 地 将 Spark 框架 分 布 式 map 和 reduce 过 程 与 模糊 KNN 结合 ， 首 先 对 不 同 分 区 中 训练 样 
本 类 别 信息 进行 模糊 化 处 理 ， 得 到 类 别 隶 属 度 ， 将 训练 集 转 换 为 添加 类 隶属 度 的 模糊 训练 集 ; 然后 使 用 KNN 算法 对 
先前 计算 的 类 成 员 测 试 集 计算 得 到 kk 个 最 近邻 ; 最 后 通过 距离 权重 进行 分 类 。 针 对 百 万 级 大 数据 集 样本 的 实验 ， 以 及 
与 其 他 算法 的 对 比 实验 表明 ， 所 提 算 法 是 可 行 的 和 有 效 的 。 
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Accurate distributed fuzzy KNN classification algorithm for big data 


Zou Jinsongl, Li Fang ? 
(1. Dept. of Electronics & Information Engineering, Chongqing College of Water Resources & Electric Engineering, Chongqing 
402160, China; 2. School of Computer Science, Chongqing University, Chongqing 400044, China) 


Abstract: It has a research on the efficiency of processing large data sets with K Nearest Neighbor method, and then a 
distributed exact fuzzy KNN classification algorithm based on the Spark framework was proposed. The method innovatively 
combines the Spark framework distributed map and reduce processes with the fuzzy KNN. Firstly, the training sample category 
information in different partitions is processed to obtain the class membership degree. The training set is converted into a fuzzy 


training set with adding membership degrees, and then the KNN algorithm is used to calculate the k nearest neighbor of the 


previously calculated class member test set. Finally, it is classified by distance weight. Experiments on mega-scale dataset 


samples and comparison experiments with other algorithms show that this method is feasible and effective. 


Key words: big data; distributed Spark framework; class membership degree; exact fuzzy KNN algorithm 


了 可 以 用 基于 MapReduce 和 Spark 框架 的 云 技 术 来 解决 大 数据 问 
引言 显 ， 
K- 近 邻 方法 (KNN) 是 一 种 有 效 的 分 类 算法 止 ， 其 分 类 规 前 对 于 KNN 及 改进 KNN 算法 对 大 数据 处 理 的 研究 逐 


则 基于 对 未 知 样本 采集 训练 集中 大 个 最 相似 的 样本 ， 它 的 相似 渐 增 多 。 文 献 [8] 提 出 的 方法 是 由 两 个 阶段 组 成 的 近似 KNN 算 
性 通常 是 一 个 距离 度量 ， 如 欧 几 里 德 距离 或 曼哈顿 距离 。 尽 管 。 法 ,首先 , 将 数据 分 区 以 将 整个 数据 集 分 成 不 同 的 分 区 ; 其 次 ， 

其 简单 性 , KNN 算法 以 其 性 能 上 的 优势 成 为 数据 挖掘 的 十 大 算 ”计算 每 个 分 区 中 的 KNN， 从 而 得 到 不 同 的 原始 KNN 结果 。 文 
法 之 一 己 引 。 献 [9] 提 出 了 快速 KNN 的 大 数据 分 类 算法 ， 该 算法 首先 用 聚 类 
KNN 算法 在 分 类 的 时 候 给 每 个 邻居 赋予 同样 的 重要 性 , 因 ”方法 对 样本 进行 分 块 ,在 测试 过 程 找 出 距离 待 测 样 本 最 近 的 块 ; 
此 可 能 存在 误 判 的 情况 ， 越 来 越 多 的 人 对 于 KNN 算法 的 改进 ” 然后 用 使 用 KNN 对 该 块 (作为 新 的 训练 样本 ) 进行 分 类 。 文献 
算法 作出 研究 。Fuzzy-KNN 通过 模糊 集 来 解决 传统 KNN 的 误 。”[10] 提 出 了 一 种 可 以 对 大 数据 集 进行 分 类 的 精确 KNN 方法 , 该 
判 缺 点 ， 提 高 分 类 准确 率 * 习 ， 已 经 在 医药 四、 经 济 和 其 他 许多 ”方法 在 map 阶段 分 割 训练 集 并 计算 每 个 测试 样本 的 KNN; 

领域 得 到 应 用 。KNN 算法 在 处 理 大 数据 集 时 存在 运行 时 间 和 内 ”reduce 阶段 收集 所 有 候选 者 作为 最 近邻 居 ， 并 报告 最 后 k 个 最 
存 消耗 两 个 主要 问题 门 。 而 Fuzzy-KNN 算法 虽然 在 分 类 精度 上 ” 近邻 大。 因此， 该 算法 能 够 处 理 运 行 时 间 较 长 的 大 训练 和 测试 
高 于 KNN, 不 过 由 于 该 算法 需要 一 个 额外 的 阶段 来 计算 类 的 隶 。” 和 集 ， 并 获得 与 传统 KNN 算法 一 样 的 准确 度 。 在 文献 [11] 中 作者 
属 度 ， 所 以 时 长 和 内 存 消耗 会 更 大 一 些 。 为 了 解决 这 个 问题 ， 通过 简单 的 分 割 数 据 并 在 每 个 分 割 中 应 用 Fuzzy-KNN, 然后 收 
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每 个 分 组 的 所 有 标签 , 并 通过 多 数 投票 计算 最 终结 果 。 其 人 
点 是 当 训 练 集 和 测试 集 很 大 时 ， 改 算法 需要 太 多 的 分 割 ， 并 且 
在 最 后 阶段 产生 大 量 的 投票 计算 。 
随 着 云 计算 的 发 展 ， 对 于 大 数据 分 类 的 研究 成 为 热点 ， 已 
经 有 文献 对 大 数据 作出 研究 。 文 献 [12] 文 献 提出 基于 Storm 的 
流 数 据 KNN 分 类 算法 ， 能 够 满足 大 数据 背景 下 对 流 数 据 分 类 
的 高 吞吐 量 、 实 时 性 和 准确 性 的 要 求 。 文 献 [13] 提 出 一 种 基于 语 
言 模糊 规则 的 大 数据 分 类 系统 , 使 用 MapReduce 框架 来 学 习 和 
融合 规则 库 , 能 够 有 效 实现 大 数据 分 类 。 文献 [14] 提 出 了 一 种 新 
的 大 数据 模糊 规则 分 类 系统 ， 解 决 了 随 着 并 行 度 的 增加 ， 分 类 
性 能 显 着 降低 的 问题 。 文 献 [15] 提 出 了 一 种 针对 大 数据 的 多 层 
差分 KNN 算法 ， 避 免 了 传统 改进 算法 中 剪辑 样本 带 来 的 判别 
误差 ， 又 大 大 降低 了 无 效 计 算 量 。 文 献 [16] 提 出 了 一 种 
MapReduce 和 分 布 式 缓存 的 KNN 并 行 方法 ,提高 了 算法 效率 。 
在 研究 了 以 上 大 数据 分 类 方法 的 基础 上 ， 针 对 上 述 方法 的 


站 


HI 


二 一 不 足 ,本 文 提出 了 一 种 在 Spark 上 实现 的 基于 精确 模糊 KNN 算 
法 (EF-KNN)。 该 算法 利用 Spark 的 内 存 原 语 通过 分 割 数据 来 管 
1 理 大 型 训练 集 ， 另 外 ， 该 算法 还 可 以 通过 遍历 这 个 集合 的 块 来 
@ 处 理 巨大 的 测试 集 。 第 一 阶段 计算 类 隶属 度 ，map 阶段 分 配 训 
二 练 集 并 计算 每 个 分 配 的 KNN, reduce 阶段 收集 所 有 的 候选 者 成 
己 为 最 近邻 并 获得 最 终 上 个 最 近 样 本 ， 然 后 计算 类 成 员 并 用 这 个 
本 信息 报告 一 个 新 的 训练 集 , 加 快 了 运行 速度 。 第 二 阶段 中 的 map 
二 阶段 计算 分 配 的 测试 样本 和 训练 集 之 间 的 距离 ， 每 个 映射 得 到 
@ 天 个 候选 并 做 标记 。 多 个 reduce 阶段 , 通过 统计 map 阶段 的 标 
CN 记 信息 ， 计 算 最 终 人 个 邻居 ， 然 后 根据 先前 计算 的 类 隶属 度 进 
写 行 分 类 。 

总 1 模 拓 KNN 算法 

nN 

cc 模糊 KNN 算法 是 对 标准 KNN 算法 的 改进 , 其 在 精度 方面 
非常 具有 较 好 性 能 。 该 方法 与 传统 KNN 的 不 同 之 处 是 ， 模 和 


化 未 知 样本 和 大 个 最 近邻 的 距离 ， 然 后 每 个 类 别 设置 隶属 度 。 
该 方法 用 训练 集 来 预先 计算 类 成 员 ， 之 后 计算 测试 集中 每 个 样 
本 的 KNN。Fuzzy-KNN 算法 的 正式 表示 法 如 下 : 

设 TR 为 训练 数据 集 ，7Ts 为 测试 集 ， 分 别 


确定 的 样本 数 


n 和 样本 组 成 ， 每 个 样本 x 是 一 个 向 量 (x x, i) 二 中 


il9" 2 i 


是 第 i 个 样本 的 第 7 个 特征 值 。7R 的 每 个 样本 都 属于 一 个 已 
知 的 类 别 w ， 而 对 于 Ts 来 说 它 是 未 知 的 。 KNN 有 两 个 不 
同 的 阶段 ， 第 一 个 阶段 是 计算 7 及 本 身 的 天， 最 近邻 居 ， 通 过 


计算 x 和 7R te tt ,个 最 接近 的 
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是 计算 Ts 的 每 个 样本 在 7R 中 大 个 最 近邻 居 ， 最 终 按 式 (2) 进 行 


计算 。 
> xy- x my 


u(xX)= 2) 
ye 
其 中 : mm 为 模糊 权重 调节 因子 ， 如 果 
u(x)=max {u(x)},z=1,2,...w 且 wzi 时 ， 则 可 以 得 出 样本 x 
属于 第 i 类 。 


2 “大 数据 的 精确 模糊 KNN(EF-KNN) 算 法 


Spark 是 MapReduce 一 个 新 的 实现 ， 解 决 了 Hadoop 的 一 
些 缺 点 ， 最 重要 的 特征 是 数据 的 类 型 结构 以 透明 的 方式 并 行 计 
算 ， 它 被 称 为 弹性 分 布 式 数据 集 (RDDs); 另外 ，RDD 人 允许 持 
久 化 和 重用 数据 。 此外, 其 开发 与 Hadoop 合作 , 特别 是 与 其 分 
布 式 文件 系统 (hadoop distributed file system, HDFS )。 

本 文 在 Spark 框架 基础 上 提出 了 一 种 基于 Spark 框架 大 数 
据 环境 的 分 布 式 精确 模糊 KNN 分 类 算法 。 该 算法 分 为 两 个 阶 
段 ， 第 一 阶段 计算 隶属 度 ， 第 二 阶段 进行 分 类 。 
2.1 计算 类 隶属 度 

这 个 过 程 是 计算 训练 集 类 成 员 隶 属 度 的 MapReduce 过 程 。 
图 1 给 出 了 EF-KNN 的 流程 。 


TR’ TR TR ETRY Fuzzy Training 
Set (FTR) 
With T samples 
ft ft |ft 
and V iterations i ,| 
lassM ~ Dist> 
<ClassM — Dist> * kyonspus 
Split 1 <ClassM — Dist> , kaom som 
TR 
SE Split 2 Key2 
Training Set TR, <ClassM Dist> kan 
(TR) dete <ClassM — Dist> ,kon som 
With N samples TR™ 
全 [TEN spltM 
<ClassM 一 Dist> + kam som1 
<ClassM — Dist> :Kaen emu 


reduce 


图 1 EF-KNN 流程 
图 中 可 知 ， 计 算 过 程 分 为 map 和 reduce 部 分 两 部 分 。 
Map 阶段 划分 训练 数据 集 TR 并 计算 每 个 分 割 的 距离 ， 并 为 每 
个 训练 样本 取 k 个 最 近邻 的 类 别 ，reduce 阶段 将 所 有 候选 者 加 
入 到 上 个 最 近邻 中 ， 并 获得 个 最 接近 的 定义 样本 ， 形 成 一 个 
新 的 添加 有 具有 类 隶属 度 向 量 的 训练 集 ， 被 称 为 模糊 训练 集 
(fuzzy training set , FTS )。 

1) Map 过 程 从 HDFS 读 取 的 训练 集 TR 作为 RDD 对 象 


样本 ， 当 得 到 最 近邻 居 ， 就 会 创建 如 式 〈1) 所 示 的 类 隶属 度 ， 

对 此 训练 数据 集 TR 具有 一 个 具有 类 素 属 度 向 量 而 不 是 
原来 的 类 标签 。 

ek if j=i 

(nj /kw ) 0.49 if jz#i 

第 二 阶段 计算 与 第 一 阶段 类 似 的 个 最 近邻 居 ， 不 同 之 处 


(D) 


开始 ，TR 被 分 成 m 个 分 区 ， 作 为 用 户 定义 的 参数 ， 因 此 ， 对 


(map,map, map, ) ， 每 个 map 各 天国 和 各 于 迷 的 训练 样 
本 。 


为 了 获得 一 个 精确 的 类 隶属 度 方法 ， 需 要 对 每 个 训练 样本 
中 的 所 有 训练 样本 进行 比较 ， 以 将 每 个 训练 样本 与 整个 训练 集 
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否则 ，TR 


进行 比较 。 假 设 TR, 和 TR 在 内 存 中 一 起 使 用 ; 
分 区 成 v 块 ， 并 以 
确 执行 。 算 法 1 中 包含 了 map 函数 伪 代 码 。 
算法 1 隶属 度 计算 中 map 函数 

输入 : TR TR, ren 


l、 Fort=0 to size(TR,) do 
2、 计算 KNN(TR, TRy, knemsp) —> Clas&Distiy 


3、 (key: t, value: Clas&Disti;) —> result; 


4、 end for 
5、 输出 resulty 


每 个 map 过 程 建立 一 个 TR, 中 每 一 个 训练 样本 的 维 < 


memb 一 


类 别 , 距离 > 的 向 量 Class & Dist,, ,步骤 2 计算 类 别 及 其 与 


质 序 的 方式 欠 代 ， 以 允许 存储 在 内 存 中 并 正 


将 被 


k 


memb 


最 近 样 本 的 距离 。 为 了 加 速 还 原 器 中 最 近邻 居 的 最 新 实现 ， 每 


个 矢量 Class & Dist, ， 按 


Class & Dist 矩阵 , 表示 候选 样本 是 最 近邻 居 , 通过 步骤 3 中 过 
程 得 到 。 通 过 该 方案 ,可 以 使 用 多 个 reducers 来 处 理 大 型 训练 


hn 


nt 
o 


升序 排序 。 每 个 map 任务 都 会 建立 一 个 


2) Reduce 过 程 多 个 reducers 从 map 任务 中 输出 得 到 的 


jnemg 最 近邻 居 ， 蓝 
近邻 居 。 要 做 到 这 一 点 ， 所 有 元 素 都 key 分 组 ， 
属 度 ， 有 具体 过 程 见 算法 2。 

算法 2 ”隶属 度 计 算 中 reduce 伪 代 码 


输入 : 7esultkew kmemb, cont1=0, cont2=0 


While i< knems do 


并 计算 类 的 隶 


目标 是 获得 TR, 中 包含 的 每 个 训练 样本 的 最 


| 全 3 
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(1)， 并 将 表示 每 个 类 隶属 度 向 量 的 单个 标签 更 改 。 最 后 返回 保 
存 原始 特征 的 每 个 原始 样本 , 并 更 改 用 于 计算 的 类 成 员 的 标签 ， 


即 产生 了 一 种 新 的 模 粘 
2.2 分 类 过 程 


训练 集 , 这 是 2.2 节 中 分 类 部 分 的 输入 。 


2 给 出 了 分 类 阶段 的 流程 , 分 为 MapReduce 的 两 个 基本 


操作 。 


Output 


Majority voting with 
max class membership 


With T samples 
and U iterations 


<ClassM — Dist> + Keom sp 


<ClassM — Dist> * kyan onw 


<ClassM — Dist> -kbmt 


Fuzzy Training 
Set (FTR) <ClassM — DIst> «knom ou 


With N samples 


Key T/U 
<ClassM ~ Dist> * kyonspm1 


加 四 攻 


ClassM — Dist> ons 


reduce 


map 


图 2 最 终 分 类 阶段 流程 


Map 过 程 需要 训练 数据 集 TR， 测 


试 集 TS 和 参数 上 作 相 应 


分 区 ， 并 计算 每 个 TR 分 区 的 近邻 和 TS 类 的 每 一 个 样本 的 


距离 ，reduce 阶段 收集 每 个 分 区 的 所 有 个 最 近邻 ， 


If resultrey(contl).Dist < resultreducer(CcOnt2).Dist then 
resultrey(cont1).Dist 一 > out(i), cont1++ 
else if resulitrey(contl).Dist= resultreduce(cont2).Dist then if 


i< kmnemp then 
计 十 
resultreA(cont2) —> out(i) 
CONnt2+++ 
end if 
else 


resultrey(cont2) 一 out(i) 


CO112 十 十 

end if 

i 二 十 
end while 
输出 out 

Reduce 任务 将 通过 合并 map 的 输出 来 更 新 kmems 最 近邻 候 
选 者 选择 ， 由 于 来 自 map 的 矢量 根据 距离 排序 ， 所 以 更 新 过 程 
变 得 更 快 。 这 包括 合并 两 个 排序 列表 ， 确 保 尽 可 能 地 保留 相同 
距离 的 邻居 。 这 个 函数 一 个 一 个 地 比较 距离 ， 如 果 距 离 小 于 当 
前 的 距离 ， 则 更 新 距离 和 类 ;如果 距离 更 远 ， 则 被 丢弃 ; 如 果 
距离 完全 相同 ， 则 保存 两 者 。 然 后 得 到 训练 集中 每 个 样本 的 


kmempb 近邻 ， 男人 map 阶段 将 计算 类 隶属 度 ， 计算 方 法 


见 式 


个 最 接近 的 样本 , 最 后 通过 多 数 投票 报告 每 个 样本 的 分 类 


计算 k 


标签 ， 


分 类 阶段 的 重点 是 获得 从 模糊 训练 集 FTR 开始 的 确切 结果 。 


1) Map 过 程 FTR 分 成 m 个 部 分 ， 


其 中 包含 大 约 相同 数量 


的 样本 ， 测 试 集 TS 必须 未 分 区 ， 以 便 通 过 分 布 式 map 操作 来 
计算 所 有 候选 者 为 FTR 的 每 个 分 区 中 K 个 最 近邻 。 如 果 FTR 


的 分 区 数 保持 为 TR 的 分 区 ， 则 避免 了 shuffle 阶段 
行 时 效率 会 提高 。 


因 出 


在 运 


算法 3 显示 了 map 函数 的 伪 代 码 。 对 于 TS 的 每 个 样本 计 
算 它 的 大 个 最 近邻 。 变 量 neigh-memb 保存 距离 和 类 隶属 度 矢 


地 


阶段 。 

算法 3 分 类 过 程 中 map 伪 代 码 

输入 : TR; TS,k 

1l、 fort=0 to size(T9) do 

2、 计算 KNN(TR TS, fh) > neigh-membij 
3、 (key: t, value: neighborst;) 一 resultr 
4、 end for 

5、 输出 result 


, 最 后 将 每 个 测试 样本 的 id 添加 为 key, 并 将 其 发 送 到 reduce 


2) Reduce 过 程 其 目的 是 汇总 所 有 候选 最 近邻 ， 以 便 最 终 


获得 整个 模糊 训练 集 FTR 的 个 最 近邻 , 保持 距离 和 类 
句 量 。 
算法 4 分 类 过 程 reduce 伪 代 码 
参数 设置 candkey1, candkes2 C1=0, C2=0 
Whilei<k do 
If candxrey1(C1).Dist < candkey2(C2).Dist then 


candkey1(C1) 一 result(i) 


if candrkey1(C1).Dist= candrey2( C2).Dist 


长 属 度 
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then 
1 十 十 
if i< knems then 
candkey2(C2) -> result(i) 
C2++ 
end if 
end if 
C1l++ 
else 
candkey2(C2) 一 result(i) 
G2 二 + 证 
end if 
i 二 十 
end while 
考虑 到 一 些 样本 的 距离 可 能 是 相同 的 ， 因 此 ， 当 参数 允 
许 时 将 保留 两 个 邻居 。 最 后 ， 利 用 得 到 的 邻居 ， 应 用 最 后 一 个 
map 函数 计算 预测 的 类 标签 ， 式 (2) 应 用 于 测试 集 的 每 一 个 样本 
分 类 。 


3 ”实验 结果 与 分 析 


采用 UCI 机 器 学 习 库 的 三 个 大 数据 集 (PokerHand、Susy、 
Higgs) 来 评估 提出 的 模型 。 表 1 给 出 了 样本 描述 。 
1 数据 集 描述 


i 


数据 集 样本 属性 数 类 别 
PokerHand 1 025 010 10 10 
Susy 5 000 000 18 2 
Higgs 11 000 000 28 2 


模型 中 用 到 的 参数 fwems 选择 3、5、7 做 邻居 数量 来 计算 类 
成 员 , 为 未 知 样本 的 邻 区 数 ， 另 外 并 发 式 计算 map 任务 数 即 
为 数据 集 TR 分 区 数量 。 
所 有 执行 都 在 由 另 一 个 主 节 点 管理 的 16 个 计算 节点 组 成 
的 集群 上 运行 .节点 具有 以 下 特点 : 2 个 Intel Xeon CPU E5-2620 
处 理 器 ， 每 个 处 理 器 6 个 内 核 〈12 个 线程 )，2 GHz 和 64 GB 
RAM ,每 个 任务 都 有 2 GB 可 用 主 内 存 ， 每 个 节点 都 使 用 Spark 
1.6.2 进行 配置 。 

从 运行 时 间 和 准确 性 方面 分 析 了 所 提出 的 方法 。 表 2 给 出 
了 使 用 Poker 数据 集 时 ， 计 算 类 成 员 阶段 的 时 间 (MembT)、 分 
类 阶段 的 时 间 〈ClasT) 和 总 运行 时 间 〈TotalT) 以 及 分 类 准确 
度 (Acc)。 为 了 简化 显示 的 结果 ，kwems 和 上 磊 的 值 是 相同 的 ， 并 
且 等 于 3、5、7，map 数 设 为 256。 

表 2 本 文 算法 对 Poker 数据 集 实验 结果 


ll 
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kmemb 和 k MembT ClasT TotalT ACC 
3 462.2232 130.7489 592.9721 72.57% 
5 484.2841 145.6419 629.926 73.13% 
7 499.0342 141.0916 640.1258 73.36% 


表 2 中 数据 可 以 得 出 ， 对 于 参数 knems 和 kk， 由 于 设计 的 


三 
| 
x 
< 


-人 
印 动 松 ， 等 :大 数据 下 的 分 布 式 着 确 模 罗 | 期 刊 。 
执行 ， 尽 管 样本 量 增加 以 及 reduce 阶段 的 邻居 计算 量 增加 ， 但 
三 种 模型 中 的 任何 一 种 的 总 运行 时 间 都 不 会 增加 太 多 ， 且 kwems 
和 大 取 值 3、5、7 时 分 类 准确 率 相差 较 少 。 Susy 数据 集 在 不 
同 map 数 的 实验 结果 如 表 3 所 示 。 

表 3 Susy 数据 集 在 不 同 map 数 的 实验 结果 


Accuracy 
kmemb 和 k 
128 256 384 
3 83.38% 82.46% 82.84% 
5 83.50% 82.92% 82.78% 
7 83.19% 82.91% 82.38% 


表 3 中 数据 可 知 ， 大 数据 分 类 精度 随 着 map 数 的 增加 而 
降低 ， 这 是 因为 对 于 测试 样本 ， 有 几 个 训练 数据 点 的 距离 完 
相同 ， 当 分 布 式 执行 时 ， 最 终 邻 居 将 依赖 于 从 每 个 映射 输出 到 
达 的 顺序 。 

图 3 给 出 了 总 运行 时 间 (以 s 为 单位 ) 与 map 任务 数量 之 
间 的 关系 ，kmems 和 大 的 值 相 同 且 等 于 3。 图 4 给 出 了 本 文 算法 
在 三 个 数据 集 分 类 获得 的 运行 时 间 (以 s 为 单位 )， 其 中 kmem 
和 的 值 相同 且 等 于 3 和 map 任务 数量 为 384。 


30000 


25000 日 Susy 
四 Poker 


17000 


256 


map 任 务 数量 
图 3 ”Map 数量 对 总 运行 时 间 的 影响 
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总 运行 时 间 /s 


Poker Susy Higgs 


数据 集 


图 4 ”不同 数据 集 的 运行 时 间 
分 析 图 3 和 4 可 知 , 本文 所 提出 的 模型 可 伸缩 性 是 线性 的 ， 
但 是 在 运行 时 Higgs 数据 集 的 时 间 相 当 高 ， 并 揭示 了 该 算法 的 
弱点 ， 运 行 时 需要 更 多 硬件 条 件 。 
为 了 验证 本 文 方法 的 先进 性 ， 将 本 文 算法 与 其 他 算法 进行 
比较 。 实 验 中 本 文 算法 中 kmemb 和 Kk 的 值 均 取 为 3， 分 类 准确 


率 对 比 结 果 见 表 4。 
表 4 不 同 算法 分 类 准确 率 性 能 比较 ” /% 
方法 
数据 集 
[11] [13] [17] 本 文 算法 
PokerHand 75.12 71.96 77.99 89.25 
Susy 69.06 60.31 63.14 83.38 


录用 稿 


Higgs 62.63 55.61 55.86 77.82 


提 算 法 分 类 准确 率 性 能 优 于 其 他 算法 ,说 明 所 提 方 法 的 先进 性 。 


4 


于 Spark 框架 


表 中 数据 可 以 得 出 ， 与 其 他 大 数据 分 类 算法 相 比 较 ， 所 


t 


结束 语 


为 解决 大 数据 分 类 效率 问题 ， 提 出 一 个 可 扩展 的 分 布 式 基 
的 精确 模糊 K-NN 算法 。 该 算法 在 Spark 框架 上 


放 


分 类 精度 的 前 提 下 ， 
且 总 运行 时 间 不 会 增加 太 多 。 通 过 与 其 他 算法 的 
明 所 提 方 法 的 可 行 性 与 有 效 性 。 
型 来 加 速 模 糊 KNN 模型 ， 


首先 进行 数据 分 区 ， 计 


类 隶 属 度 ， 得 到 模糊 数据 集 ， 最 后 使 
KNN 实现 大 规模 数据 的 分 类 。 实 验 表 明 ， 本 文 方法 在 保证 
可 实现 百 万 一 千 万 数据 规模 的 数据 分 类 ， 

实验 比较 ， 说 
未 来 的 工作 将 通过 一 个 近似 模 
于 减少 计算 类 隶属 度 时 间 。 
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